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摘 要 概率 词 切 分 指 个 体 利用 音节 间 的 转换 概率 切 分 语 流 、 发 现 词语 边界 的 过 程 。 经 典 的 概率 词 切 分 研究 
多 采用 “学 习 -测试 ?范式 ， 首 先 要 求 被 试 切 分 一 段 无 意义 人 工 语 言 ， 随 后 对 切 分 效果 进行 测试 。 近 年 来 ， 研 究 
者 逐渐 关注 语言 经 验 对 概率 词 切 分 的 影响 ,具体 包括 语音 经 验 和 被 试 掌握 的 语言 知识 两 方面 。 今 后 的 研究 ， 一 
方面 可 以 更 多 地 关注 普通 话 母 语 者 的 语言 经 验 如 何 作用 于 概率 词 切 分 过 程 ; 另 一 方面 还 可 以 在 语言 经 验 的 分 
类 上 进行 拓展 ， 细 分 群体 语言 经 验 和 个 体 语 言 经 验 的 影响 。 

关键 词 ”语言 经 验 ,， 概率 线索 ， 词 切 分 
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1 概率 词 切 分 2002)， 因 此 个 体 如 何 通过 线索 对 语 流 进行 切 分 一 
直 是 口语 加 工 中 的 研究 热点 。 
11 概率 词 切 分 的 定 》 
T 在 切 分 线索 的 研究 中 , 除 语法 线索 (Ding et al, 
词 是 最 小 的 能 独立 运用 的 音义 结合 体 ( 张 珊 M" 
: : . 2016), 、 音 系 规 则 (Cutler & Norris, 1988; McQueen, 
册 ， 杨 亦 鸣 ，2012)， 在 口语 加 工 过 程 中 ， 听 话 者 "PV 
NN m Ae . 1998; Suomi et al.，1997) 和 韵律 线索 (Gout et al., 
FUROR OE BI Bee TA RE OE EL, 2004; Gout et al, 2004) 之 外 ,受到 最 多 关注 的 是 
» \ Be E x , "9 > bt M 
inp UU Pas elke 音节 间 的 转换 概率 (transitional dd TP), 其 
语言 学 之 父 索 绪 尔 (1916) 指 出 个 体 要 通过 音节 的 。。 计 和 人 起 为 i M 
E" * B NES : 
意义 对 语 流 进行 切 分 ， 从 而 保证 语 流 中 被 切 分 的 


ees ee at psig Aen n TP — frequency XY / frequency X 
音节 都 有 对 应 的 语义 内 容 (图 1; a 为 语 流 中 的 音 有人 n i REM E a" 

EE "HON "URGES A > YZE AR A T 
35, b 为 音节 对 应 的 语义 内 容 )。 但 是 ,口语 语 流 是 


音节 ( 妨 的 概率 。 如 果 这 一 特定 音节 ( 习 出 现 的 概率 
随时 间 变化 的 线性 结构 ， 词 和 词 之 问 没有 清晰 可 站 0 的 概率 。 如 时 这 一 特定 诗 COE SARE 
NERONE, mr B 较 高 , 那么 音节 组 合 GJ) 很 可 能 为 词 内 音节 组 ; 
靠 的 边界 , 不 像 文 本 阅读 中 有 明确 的 空间 线索 ( 标 两 个 音节 间 存 在 词 边界 或 者 说 分 属 两 个 词 
点 符号 或 空格 ) (ESCH, PHP, 2018: Sanders et al HL, MAET Vid FF E T8 34 7 9X E Vh) 88 VAI T 
eU E i à ° : ° 的 结尾 和 开始 ， 比 如 在 词组 pretty dog "P, 词 内 音 
节 组 re-ty 之 间 的 转换 概率 要 比 词 间 音节 组 
a tty-dog 之 间 的 转换 概率 高 。 因 此 ， 前 两 个 音节 是 
EE pP y 词 内 音节 组 ， 而 后 两 个 音节 跨越 了 词 边界 。 个 体 
利用 音节 间 转 换 概率 切 分 语 流 、 发 现 词语 边界 的 
图 1 索 绪 尔 对 口语 词 切 分 的 观点 
(资料 来 源 : MNA: Baskin, 1916) 过 程 被 称 作 概 率 词 切 分 或 (语音 ) 统 计 学 习 机 制 
(Saffran et al., 1996; Saffran & Kirkham, 2018)。 
1.2 ”概率 词 切 分 的 研究 范式 
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谈 词 切 分 中 最 经 由 的 研究 ^ 
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工 语言 ， 核 心 的 要 求 是 同一 个 词 不 能 连续 出 现 两 
次 (如 tupiro-golabu-bidaku-padoti-bidaku...... )。 实 
验 采用 学习- 测试? 范式 ， 学 习 阶 段 向 8 个 月 婴儿 
播放 2 分 钟 人 工 语言 , 测试 阶段 向 婴儿 呈现 目标 词 
(如 tnpiro， 即 原始 三 音节 词 ) 和 跨 界 词 (如 rogola, 第 
一 个 音节 为 一 个 原始 词 的 最 后 一 个 音节 ,后 两 个 音 
节 为 另 一 个 原始 词 的 前 两 个 音节 )。 由 于 每 个 原始 词 
后 出 现 男 外 三 个 词 的 可 能 性 相同 , 因此 跨 界 词 第 
个 音节 和 第 二 个 音节 间 的 转换 概率 较 低 。 由 概 
率 词 切 分 的 观点 可 以 推断 这 类 刺激 在 婴儿 脑 中 不 
会 以 完整 词语 的 形式 表征 ,对 婴儿 来 说 也 会 比较 
陌生 。 实 验 结果 发 现 ， 婴儿 对 跨 界 词 的 注意 时 间 
长 于 目标 词 。 研 究 者 认为 这 种 时 间 上 的 差异 反映 
的 是 去 习惯 化 效应 ， 即 婴儿 在 学 习 阶 段 已 经 由 概 
率 信息 切 分 出 原始 目标 词 ， 因此 在 测试 阶段 注意 
时 间 较 短 ; 相反 ,婴儿 在 学 习 阶 段 没 有 切 分 出 跨 
界 词 , 那么 在 测试 阶段 会 更 关注 这 类 测试 材料 。 
概率 信息 在 词 切 分 中 的 线索 作用 得 到 大 量 实 


言 。 由 于 人 工 语言 是 利用 无 意义 词 合 成 , 并且 排 
除了 重音 、 停 顿 等 可 能 影响 词 切 分 的 韵律 线索 
因此 仅 有 概率 信息 可 以 被 利用 。 研 究 者 假设 在 学 
习 阶 段 开 始 前 ， 被 试 对 目标 词 和 路 界 词 没 有 任何 
先 验 的 知识 表征 ， 所 以 在 测试 阶段 中 区 分 目标 词 
和 跨 界 词 的 关键 仅仅 为 被 试 加 工人 工 语言 中 词 内 
和 词 间 的 转换 概率 (Frost et al., 2020; Siegelman et 
al., 2018)。 那么 ， 对 于 实验 被 试 来 说 ,在 完成 测验 
任务 过 程 中 ,是 否 真 的 可 以 完全 将 先 验 的 知识 “ 放 ” 
在 一 旁 吗 ? 在 切 分 语 流 过 程 中 真 的 可 以 不 受 自 身 
语言 经 验 的 影响 吗 ? 语言 经 验 是 心理 语言 学 研究 
中 多 次 被 提 及 、 操 纵 的 概念 ， 根据 实 验 需 求 ， 由 于 
其 涵盖 范围 较 大 ， 所 以 研究 者 往往 强调 某 一 具体 
内 容 的 语言 经 验 ， 如 语言 文化 ( 王 婷 等 ,2017)、 音 
系 知识 ( 李 利 等 ，2020) 以 及 视觉 文字 (Li et al., 
2020) 等 方面 。 近 年 来 , 学 者 开始 关注 在 完成 概率 
词 切 分 任务 中 , 语言 经 验 在 其 中 扮演 的 作用 。 经 
过 对 相关 文献 的 梳理 ， 本 文 从 以 下 两 个 方面 对 语 


验证 据 的 支持 。 在 以 婴儿 为 被 试 的 实验 中 ， 因 变 
量 为 被 试 对 实验 刺激 的 注意 时 间 (Emberson et al., 
2019; Erickson et al., 2014; Estes et al., 2007; Estes 
& Lew-Williams, 2015; Johnson & Tyler, 2010). 在 
以 儿童 或 成 人 为 被 试 的 研究 中 , 虽然 仍旧 采用 
“学 习 - 测 试 ? 范 式 ， 但 在 测试 阶段 更 多 地 采用 迫 
选任 务 (Endress & Langus, 2017; Hoch et al., 2013; 
Palmer & Mattys, 2016; Wang & Saffran, 2014), #4 
悉 度 评分 (Batterink & Paller, 2017; Erickson et al., 
2016) 或 音节 检测 任务 (Batterink et al., 2015; Batterink, 
2017; Franco et al., 2015)。Wang 和 Saffran (2014) 
采用 人 迫 选 任务 进行 测试 他们 发 现 被 试 可 以 准确 
区 分 目标 词 和 非 词 ， 迫 选 正 确 率 高 于 随机 水 平 ; 
Batterink 和 Paller (2017) 在 测试 阶段 使 用 熟悉 度 
评分 任务 ,结果 发 现 被 试 对 目标 词 、 跨 界 词 和 非 
词 的 熟悉 度 逐 渐 降 低 。 以 上 几 种 测试 阶段 的 任务 
其 本 质 均 为 线 下 测验 (offline test)。 也 有 学 者 采用 
线 上 测验 的 方式 对 个 体 在 学 习 阶 段 的 表现 进行 监 
控 ， 比 如 利用 事件 相关 电位 技术 对 学 习 过 程 进行 
监测 ， 他 们 发 现 具有 高 转换 概率 的 词 的 词 首位 置 
会 诱发 大 脑 皮层 稳定 的 N400 效应 (Batterink & 
Paller, 2017; Buiatti et al., 2009)。 

13 语言 经 验 与 概率 词 切 分 的 关系 

虽然 测试 阶段 的 范式 有 所 不 同 , 但 大 部 分 研 
究 中 所 有 被 试 都 需要 学 习 一 段 无 意义 的 人 工 语 


言 经 验 如 何 作用 于 概率 词 切 分 进行 综述 : (1) 被 试 
的 语音 经 验 ; (2) 被 试 已 掌握 的 语言 知识 。 


2 被 试 的 语音 经 验 


统计 学 习 研 究 的 目的 是 对 被 试 切 分 人 工 语言 
的 效率 进行 检测 ， 除 了 转换 概率 之 外 , 组 成 人 工 
语言 的 音节 ( 词 ) 是 否 和 被 试 母语 相似 也 很 可 能 影 
响 被 试 的 学 习 效 果 。 比 如 被 试 母语 为 声调 语言 
实验 中 学 习 的 材料 同样 为 声调 语言 ， 而 且 声 调 类 
型 与 母语 较为 接近 , 那么 被 试 的 语言 经 验 就 会 促 
进 他 们 对 人 工 语言 的 学 习 ; 相反 ,如 果 要 求 被 试 
学 习 的 人 工 语言 不 包含 声调 信息 , 那么 被 试 在 音 
系 结构 方面 的 经 验 很 有 可 能 会 抑制 对 人 工 语言 的 
学 习 ， 导 致 切 分 效率 下 降 。 换 句 话说 ,在 语音 经 验 
的 研究 中 ,被 试 母语 音 系 结构 与 人 工 语言 的 相似 
程度 是 影响 概率 词 切 分 的 中 介 变 量 。 语 言 的 语音 
结构 包括 音 段 和 超 音 段 两 部 分 ( 林 春 , 王 理 嘉 ， 
1992)。 语 流 总 是 由 音质 不 同 的 最 小 音 段 组 成 , 我 
们 通常 要 将 元 音 和 辅音 结合 为 更 大 的 单元 结构 
如 音节 、 和 短语、 句子 。 这 些 单元 结构 必然 还 包括 
一 定 的 音 高 、 音 强 和 音 长 等 超出 单个 元 音 或 辅音 
的 语音 特征 ， 也 就 是 超 音 段 特 征 ， 主 要 指 重音 、 音 
长 、 声 调和 语调 。 
2.1 超 音 段 特征 方面 的 证 据 

两 种 语言 中 音节 是 否 包 含 声 调 是 超 音 段 特 征 
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中 非常 明显 的 区 别 。 汉 语 普通 话 是 典型 的 声调 语 
言 ， 除 轻声 外 ， 每 个 字 都 有 明确 的 声调 ; 而 英语 
是 非 声 调 语言 ， 有 词 重音 却 没有 声调 。 两 种 语言 
在 音 段 结构 上 较为 一 致 ， 但 超 音 段 特征 上 有 明显 
的 区 别 。 在 日 常生 活 中 , 我 们 也 常 观察 到 英语 母 
语 者 所 表述 的 汉语 音节 虽然 没有 错误 ,但 声调 听 
起 来 都 是 第 一 声 。 这 说 明 在 学 习 第 二 语言 过 程 中 
与 母语 音 系 结构 差异 较 大 的 部 分 较 难 掌握 ( 李 利 
等 , 2020; BE, "Kk, 2019)。 对 于 母语 为 英语 的 
被 试 来 说 ， 如 果 使 用 与 其 母语 的 语音 经 验 相悖 的 
包含 声调 信息 的 音节 合成 人 工 语言 ， 则 很 可 能 会 
降低 切 分 效率 。 

Estes 等 (2015) 以 14 个 月 大 的 英语 婴儿 为 被 试 
考察 个 体 利用 概率 信息 切 分 语 流 的 过 程 ， 实验 材 
料 均 由 汉语 普通 话 无 意义 双 音 节 词 组 成 ， 比 如 
shulnail, wolkal, 采用 经 典 的 婴儿 概率 词 切 分 实 
验 程序 。 实 验 1 中 以 目标 词 和 跨 界 词 作为 实验 刺 
激 ， 结 果 发 现 仅 有 男性 婴儿 能 够 区 分 目标 词 (转换 
概率 为 1) 和 跨 界 词 (转换 概率 为 0.33)。 作 者 推断 
因为 被 试 不 熟悉 人 工 语言 的 超 音 段 特征 ， 才 导致 
仅 有 部 分 被 试 能 够 成 功 切 分 语 流 。 在 实验 2 中 ,为 
了 降低 实验 难度 ， 作 者 对 比 婴 儿 在 非 词 (转换 概率 
为 0 和 目标 词 上 的 注意 时 间 ， 发 现 所 有 被 试 均 可 
以 完成 实验 任务 。 这 一 结果 说 明 虽 然 被 试 可 以 利 
用 概率 信息 切 分 与 自身 语言 经 验 相似 性 较 低 的 人 
THR, 但 是 切 分 效率 出 现下 降 。 与 之 相对 
Shoaib 等 人 (2018) 发 现 ， 如 果 向 20 个 月 大 的 英语 
母语 婴儿 呈现 用 意大利 语音 节 合 成 的 人 工 语言 材 
料 (意大利 语 和 英语 的 音 系 规则 较为 相近 ), 被 试 不 


儿 向 语 指 的 是 成 人 为 了 和 婴 幼 儿 进 行 沟通 而 
采用 的 一 种 特殊 言语 形式 。 成 人 在 和 婴 幼 儿 交 流 
时 ， 常 常会 夸张 自己 的 语调 ,整体 音 高 高 于 正常 水 
平 ， 特 别 是 当 婴 幼儿 表现 出 积极 的 情感 回应 时 , 成 
人 更 容易 提高 自己 的 音量 (Smith & Trainor, 2008). 
Thiessen 等 (2005) 以 儿 向 语 语 调 (infant-directed 
Speech，IDS) 和 成 人 语 语调 (adult-directed speech, 
ADS) 合 成 概率 结构 相同 的 人 工 语 言 ， 发 现 婴 儿 只 
能 在 前 一 种 条 件 下 区 分 目标 词 和 跨 界 词 。 在 脑 电 
实验 中 , 研究 者 监控 熟睡 新 生 儿 听 两 种 语调 录制 
的 人 工 语言 的 神经 反应 ,实验 结果 发 现 相 比 于 成 
人 语调 ， 儿 向 语录 制 的 学 习 材料 会 在 目标 词 起 始 
点 后 200-400 ms 和 450~550 ms 两 个 时 间 窗 内 诱 
发 的 脑 电 成 分 波幅 更 大 ， 而 且 电压 分 布 在 两 种 条 
件 也 有 明显 的 区 别 。 作 者 认为 儿 向 语 条 件 下 的 超 
音 段 特征 符合 新 生 儿 日 常 的 语言 输入 环境 ， 这 种 
材料 能 够 更 好 地 吸引 新 生 儿 的 注意 ， 维 持 较 好 的 
信息 加 工 过 程 (Bosseler et al., 2016)。 

除 声 调 、 音 高 等 因素 外 , 被 试 对 语言 中 词 ( 语 ) 
长 度 的 期 待 也 是 一 种 超 音 段 信息 。 这 方面 的 研究 
中 人 研究 者 会 给 被 试 输入 一 些 语音 材料 ， 从 而 帮助 
被 试 建立 一 种 “母语 ”的 超 音 段 特 征 。Lew-Williams 
和 Saffran (2012) 在 标准 的 统计 学 习 任 务 之 前 ， 分 
别 向 两 组 婴儿 呈现 30s 的 前 熟悉 阶段 。 这 30s 的 
语音 序列 或 者 由 两 音节 词组 成 或 者 由 三 音节 词组 
成 ,随后 的 人 工 语言 也 分 成 由 两 音节 词 和 三 音节 
词 合成 两 种 类 型 。 结 果 显 示 婴 儿 只 能 切 分 与 前 测 
相 匹配 的 人 工 语言 ， 即 先 熟 悉 了 两 三) 音节 词语 
的 婴儿 只 能 切 分 两 三) 音节 词组 成 的 人 工 语言 。 对 


T 


仅 能 够 切 分 语 流 ， 还 可 以 有 效 地 习 得 词语 含义 。 虽 
然 两 篇 文章 在 被 试 年 龄 .学 习 时间 存 在 差异 ,但 结 
合 Saffran (1996) 对 8 个 月 大 婴儿 的 实验 ,可 以 说 
明 在 一 定 程 度 上 被 试 的 语音 经 验 会 影响 概率 词 切 
分 的 过 程 。 考 察 被 试 的 语音 经 验 如 何 影响 概率 词 
切 分 的 影响 ,还 可 以 从 二 语 习 得 角度 人 手 ， 即 随 
着 二 语 经 验 的 积累 ， 被 试 对 二 语 的 语音 特征 更 为 


于 不 匹配 的 情况 ,被 试 在 后 面 的 转 头 偏好 任务 中 
无 法 区 分 目标 词 和 跨 界 词 。 这 一 结果 进一步 说 明 
了 被 试 的 语音 经 验 ( 超 音 段 方面 ) 会 影响 甚至 是 引 
导语 音 统计 学 习 过 程 。 
2.2 ” 音 段 特征 方面 的 证 据 

大 多 数 概率 词 切 分 的 研究 中 ,承载 转换 概率 
的 信息 多 为 音节 ， 即 目标 词 内 音节 的 转换 概率 较 


了 解 。 由 此 可 以 推断 切 分 以 二 语音 节 合 成 的 人 工 
语言 时 ， 二 语 经 验 更 为 丰富 的 个 体 切 分 效果 会 较 
好 。Potter 等 人 (2017) 采 用 纵向 研究 的 设计 思路 ， 
发 现 英语 母语 青少年 在 经 过 6 个 月 的 汉语 普通 话 
学 习 课 程 后 ,积累 到 丰富 的 二 语 经 验 ， 他们 完成 
以 普通 话音 节 为 材料 的 概率 词 切 分 任务 的 成 绩 有 
了 显著 提高 。 


高 ， 跨 界 词 内 音节 的 转换 概率 较 低 。 但 在 不 同 语 
言 下， 音节 内 部 元 音 和 辅音 的 作用 并 不 相同 ， 比 
如 印 欧 语系 下 辅音 对 词 切 分 的 影响 更 大 (Nazzi et 
al., 2005), 那么 对 于 印 欧 母 语 者 来 说 ， 如 果 人 工 
语言 是 以 元 音 为 概率 信息 的 载体 ， 与 母语 的 音 段 
特征 差异 较 大 , 那么 被 试 在 迫 选 任务 中 很 可 能 

确 率 较 低 。 这 方面 最 早 的 研究 来 自 于 法 语 , Bonatti 
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等 (2005) 等 人 设计 了 分 别 由 辅音 和 元 音 承 载 概率 
信息 的 人 工 语言 。 前 一 种 条 件 中 作者 固定 了 无 意 
义 词语 的 辅音 框架 , 元 音 可 以 自由 组 合 , 如 b_ dk ， 
Al m 1 t ; 后 一 种 条 件 中 作者 固定 了 无 意义 词语 的 


TOR HEAR, 辅音 可 以 自由 组 合 , 如 oey, ue a。 
通过 这 样 的 设置 ,辅音 框架 内 的 辅音 转换 概率 高 
于 辅音 框架 间 辅 音 的 转换 概率 , 元 音 条 件 下 同 
理 。 学 习 阶 段 要 求法 语 被 试 学 习 人 工 语言 7 分 钟 ， 
随后 完成 迫 选任 务 。 结 果 发 现 被 试 在 辅音 条 件 下 
正确 率 显 著 高 于 随机 水 平 ， 但 元 音 条 件 下 正确 率 
却 与 随机 水 平 差异 不 显著 。 在 实验 2 中 研究 者 还 
增加 了 元 音 条 件 的 学 习 时 间 , 结果 发 现 被 试 仍旧 
无 法 区 分 目标 词 和 跨 界 词 。 这 一 实验 结果 在 以 粤 
语 为 母语 的 被 试 身上 出 现 反 转 (G6mez et al., 2017)。 
通常 来 说 , 在 汉语 普通 话 和 粤语 中 元 音 在 词 切 分 
方面 的 作用 更 大 ，G6mez 等 (2017) 等 以 双 音 节 词 
为 目标 词 仿照 Bonatti 等 (2005) 的 实验 设计 进行 实 
Jy, 结果 发 现 只 有 当 元 音 承 载 概率 信息 时 被 试 才 
能 区 分 迫 选 试 次 中 的 目标 刺激 和 干扰 刺激 。 为 了 
防止 声调 信息 承载 的 概率 信息 干扰 实验 结果 , 在 
实验 1 中 作者 将 所 有 音节 控制 为 第 一 声 ， 在 接 下 
来 的 实验 中 ,发 现 当 人 工 语言 由 多 种 声调 音节 组 
成 时 (包括 4 种 声调 ), 被 试 的 迫 选 正 确 率 会 显著 
高 于 声调 单一 的 情况 。 作 者 认为 这 是 因为 日 常 交 
流 过 程 中 音节 声调 本 身 就 是 变化 的 , 后 一 种 人 工 
语言 与 日 常 语言 经 验 在 超 音 段 特征 上 更 为 相似 ， 
从 而 提高 了 被 试 的 切 分 效率 。 

人 们 在 感知 语音 内 容 时 ， 超 音 段 特征 和 音 段 
特征 往往 无 法 分 制 。Siegelman 等 (2018) 等 以 更 直 
接 的 方式 考察 被 试 的 语音 经 验 对 概率 词 切 分 的 影 
响 。 他 首先 请 一 组 被 试 对 出 现在 迫 选 范式 中 的 材 
料 与 希 伯 来 语 的 相似 程度 进行 七 点 评分 ， 随 后 请 
男 一 组 希 伯 来 语 母 语 被 试 完成 语音 统计 学 习 任 务 ， 
结果 发 现 词语 熟悉 度 评分 可 以 预测 被 试 迫 选任 务 
的 正确 情况 。 作 者 在 前 期 评定 任务 中 只 强调 无 意 
义 词语 和 母语 语音 的 相似 程度 ,将 超 音 段 和 音 段 


对 语言 间 相 似 性 如 何 促 进 切 分 效率 进行 解释 。 
Bogaerts 等 (2016) 认 为 概率 词 切 分 的 学 习 阶 段 过 
程 可 以 分 成 两 个 部 分 , 包括 对 刺激 材料 的 表征 和 
对 概率 信息 的 追踪 两 个 部 分 ， 这 两 部 分 都 会 影响 
最 后 的 切 分 效率 。 在 口语 词 切 分 中 ，Palmer 和 
Mattys (2016) 也 证 实 了 人 工 语言 呈现 速度 会 影响 
被 试 的 切 分 效率 ， 当 呈现 速度 较 慢 时 , 被 试 工作 
记忆 压力 较 小 , 切 分 效率 较 高 。 基 于 这 些 分 析 ， 笔 
者 认为 如 果 被 试 面 对 的 人 工 语言 在 音 段 与 超 音 段 
特征 上 与 其 母语 的 相似 程度 较 大 ,被 试 在 语音 加 
工 方面 的 经 验 就 会 帮助 他 们 快速 对 人 工 语言 的 音 
节 进 行 初 步 表 征 ， 从 而 在 相同 的 学 习 时 长 内 ， 可 
以 集中 更 多 的 精力 加 工 、 发 现 概 率 关 系 ， 完 成 词 
切 分 任务 。 换 句 话 说， 人工 语言 与 被 试 掌握 语言 
在 音 系 结构 方面 类 似 ， 降 低 了 被 试 表 征 材 料 的 难 
度 ， 最 终 促 进 概率 词 切 分 过 程 。 


3 ”被 试 已 掌握 的 语言 知识 


3.1 ”被 试 掌握 的 词语 知识 

个 体 在 出 生 伊始 便 开 始 接受 语言 输入 ， 对 于 
婴 幼 儿 来 说 ,他 们 对 高 频 词 如 妈妈” “和 爸爸 ”， 以 
及 自己 的 名 字 的 记忆 更 为 深刻 , 研究 也 发 现 这 些 高 
频 词 可 以 帮助 他 们 进行 词 切 分 和 语言 习 得 (Bortfeld 
et al., 2005; Frost et al., 2019). 在 此 基础 上 , Palmer 
等 人 (2019) 考 察 在 经 典 的 统计 学 习 范 式 中 ,被 试 
已 掌握 的 词语 是 否 能 够 促进 切 分 效果 。 他 们 以 四 
个 无 意义 三 音节 词组 成 的 人 工 语言 作为 基线 条 件 ， 
随后 用 被 试 知道 的 三 音节 词 (tomorrow) 和 四 音节 
词 (philosophy) 分 别 替代 人 工 语言 中 的 一 个 无 意义 
词语 , 结果 发 现 两 种 实验 条 件 下 被 试 的 切 分 正确 
率 不 仅 都 显著 高 于 随机 水 平 ,而且 高 于 基线 条 件 。 
人 研究 者 推测 被 试 已 经 掌握 的 词语 (tomorrow) 可 以 
作为 人 工 语言 中 的 支点 ， 当 被 试 遇 到 这 些 词语 后 
能 够 很 快 确定 前 后 边界 位 置 ， 更 好 地 完成 词 切 分 
任务 。 

被 试 掌握 的 词语 知识 不 一 定 都 是 在 学 习 人 工 


言 息 综合 考虑 ， 进 一 步 证 明了 语音 经 验 会 影响 语 
音 统计 学 习 的 结果 。 

2.3” 音 系 结构 相似 性 促进 概率 词 切 分 的 原因 分 析 
虽然 以 上 研究 一 致 认为 当 需 要 切 分 的 人 工 语 
言 与 被 试 母语 有 相同 语音 特征 时 ， 比 如 都 是 声调 
语言 ， 被 试 完成 概率 词 切 分 的 效果 较 好 ; 但 由 于 
缺少 对 概率 词 切 分 内 在 机 制 的 研究 ， 尚 没有 研究 


语言 之 前 获得 的 ,在 学 习 人 工 语 言 过 程 中 个 体 率 
先 切 分 出 的 词语 仍旧 可 以 起 到 支点 作用 促进 词 切 
SY o Kurumada 等 (2011) 设 计 了 两 种 人 工 语言 材料 : 
一 种 与 传统 的 概率 词 切 分 研究 相同 ,所 有 目标 词 
出 现 次 数 一 致 ， 另 一 种 则 更 加 符合 自然 语言 的 情 
况 ， 高 频 词 数量 较 少 , 但 重复 次 数 多 ， 中 低频 词 
数量 多 , 但 重复 次 数 少 ,也 就 是 符合 齐 夫 分 布 定 
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律 。 齐 夫 分 布 定律 认为 在 自然 语言 中 高 频 词 较 少 ， 
如 英语 中 的 “the、a” 和 汉语 中 的 “的 、 了 ”等 ， 大 部 
分 词语 都 是 低频 词 ， 一 个 词语 的 绝对 频次 
(absolute frequency) 与 其 秩 频 次 (rank frequency) 成 
反比 。 研 究 者 要 求 两 组 被 试 分别 学 习 一 种 人 工 语 
言 ， 结 果 发 现 被 试 虽然 都 可 以 很 好 地 完成 迫 选 任 
务 , 但 是 在 更 符合 自然 语言 情况 人 工 语言 中 正确 
率 更 高 。 作 者 推断 在 符合 齐 夫 分 布 的 人 工 语言 中 ， 
高 频 词 会 更 快 地 被 切 分 出 来 ， 随 后 可 以 作为 支点 
言 息 帮助 个 体 切 分 剩 下 的 语 流 。 

上 文 提 到 Palmer 等 (2019) 的 实验 证 实 被 试 党 
握 的 词语 可 以 有 效 提高 概率 词 切 分 的 成 绩 。 从 实 
验 设计 来 看 ， 研 究 者 提供 的 词语 知识 与 概率 线索 
不 仅 不 冲突 ,甚至 可 以 作为 支点 促进 被 试 找到 语 
流 中 的 词 边界 。 在 Poulin-Charronnat 等 人 (2016) 
的 实验 中 收集 了 三 组 被 试 的 统计 学 习 成 绩 ， 区 别 


个 体 在 学 习 阶 段 成 功 切 分 出 词 , 但 是 由 于 人 迫 选 范 
SU AY Hie tig (FE UL Siegelman et al., 2017), MAMIE 
确 率 仍旧 会 受到 一 定 的 干扰 ， 可 见 概率 词 切 分 的 
效果 反映 的 是 学 习 过 程 和 迫 选 任务 中 的 综合 结果 。 
以 往 关 注 语 言 经 验 影响 概率 词 切 分 的 研究 很 少 对 
影响 机 制 何 时 发 生 做 出 回答 ,是 在 学 习 阶 段 影响 
被 试 对 概率 词 切 分 的 追踪 还 是 影响 迫 选 任务 对 选 
项 的 区 分 也 不 得 而 知 。Toro (2011) 等 人 在 经 典 的 
概率 词 切 分 实验 中 , 设计 了 违背 加 奈 罗 尼 亚 语音 
系 规则 的 三 音节 词语 并 合成 人 工 语言 , 经 过 12 分 
钟 的 学 习 后 ,在 迫 选 任务 中 以 听觉 形式 考察 被 试 
能 否 区 分 目标 词 和 跨 界 词 ， 结 果 发 现 被 试 的 正确 
率 与 随机 水 平 差异 不 显著 ， 即 无 法 分 辨 出 目标 词 
和 路 界 词 。 为 了 进一步 确定 语音 规则 效应 的 时 间 
进程 ,在 接 下 来 的 实验 中 ， 研 究 者 采用 视觉 形式 
呈现 迫 选 刺激 ， 结 果 发 现 被 试 的 迫 选 正确 率 高 于 


在 于 : 一 组 被 试 在 学 习 阶 段 前 学 习 了 跨 界 词 ， 一 
组 被 试 学 习 了 非 词 , 一 组 被 试 作为 对 照 组 没有 学 
习 任 何 材料 。 结 果 在 后 期 的 迫 选 任务 中 ， 对 照 组 
被 试 的 正确 率 显著 高 于 随机 水 平 ， 而 第 一 组 学 习 
了 路 界 词 的 被 试 的 正确 率 显 著 低 于 随机 水 平 。 对 
照 组 的 成 绩 说 明 在 无 任何 先 验 信息 的 情况 下 , 个 
体 仍旧 可 以 依据 概率 线索 正确 切 分 出 词语 ; 但 对 
于 第 一 组 被 试 来 说 ， 跨 界 词 的 知识 信息 与 学 习 阶 
段 的 概率 信息 相 冲 突 ， 经 过 前 期 学 习 后 被 试 更 加 
用 问 利用 跨 界 词 提 供 的 线索 完成 对 人 工 语 流 的 切 
分 ， 因 此 在 后 期 的 迫 选 任务 中 更 多 地 选择 了 错误 
的 选项 ( 跨 界 词 )。 
结合 几 篇 研究 可 以 看 出 , 被 试 掌握 的 词语 知 
识 会 影响 概率 词 切 分 过 程 ， 而 促进 或 者 抑制 效应 
是 根据 研究 者 所 关注 的 问题 ， 这 说 明 在 我 们 切 分 
语 流 过 程 中 , 很 可 能 存在 自 下 而 上 和 自 上 而 下 的 
两 条 切 分 通路 (Frost et al., 2020; Saffran & Kirkham, 
2018)。 词 语 知 识 是 一 种 特异 性 的 切 分 线索 ， 是 个 
体 后 天 习 得 的 更 为 高 级 的 切 分 机 制 ; 而 概率 信息 
则 是 普遍 的 切 分 线索 ,， 是 个 体 出 生 就 可 以 利用 的 ， 
相对 来 说 概率 信息 是 较为 低级 的 切 分 线索 ， 当 与 
高 级 的 切 分 线索 相悖 时 (如 ,， 重音、 词语 知识 等 )， 
被 试 往往 倾向 舍弃 低级 线索 而 依靠 高 级 线索 。 
3.2 ”被 试 掌握 的 音 系 规则 

概率 词 切 分 研究 普 过 采用“ 学习- 迫 选 ” 的 线 


= 


随机 水 平 。 这 说 明 当 采用 视觉 通道 而 非 听觉 通 道 
检验 实验 效应 时 ， 可 以 得 到 显著 的 切 分 效率 。 作 
者 进一步 推断 即使 在 违背 音 系 规则 的 情况 下 , 个 
体 仍旧 可 以 追踪 音节 间 的 概率 信息 、 切 分 词语 ， 
但 是 因为 迫 选 选 项 不 符合 母语 的 音 系 规则 ， 因 此 
难以 通过 语音 形式 进行 再 认 ， 可 见 音 系 规则 并 非 
影响 大 脑 对 概率 信息 的 追踪 ,更 可 能 影响 我 们 对 
于 切 分 出 的 词语 的 语音 表征 。 
3.3 ”其 他 方面 的 证 据 

除 以 上 两 个 方面 外 ,一 些 其 他 研究 也 证 实 被 
试 进行 概率 词 切 分 时 , 会 受到 语言 经 验 的 影响 。 
现 有 绝 大 部 分 转换 概率 研究 多 为 由 前 向 后 的 计算 
模式 ， 如 双 音 节 词 AbCd (大 写字 母 代表 辅音 ,小 
写字 母 代表 元 音 ) 中 的 转换 概率 指 的 是 音节 Ab 后 
面 出 现 音 节 Cd 的 可 能 性 ,但 事实 上 转换 概率 还 
包括 由 后 向 前 的 模式 ， 比 如 计算 音节 Cd 前 出 现 
Ab 的 可 能 性 。Onnis 和 Thiessen (2013) 发 现 英 语 
母语 者 更 擅长 追踪 由 后 向 前 的 转换 概率 ， 韩 语 母 
语 者 被 试 更 擅长 追踪 由 前 向 后 的 转换 概率 ， 这 与 
两 种 语言 分 别 为 SVO 和 SOV 的 词 序 有 关 。 另 外 
的 研究 则 发 现 , 单 语 背景 儿童 能 有 效 切 分 分 别 呈 
现 的 两 种 人 工 语言 ,但 无 法 同时 完成 两 个 人 工 语 
言 交 替 出 现 的 概率 词 切 分 任务 ; 相反 ,双语 背景 
婴儿 则 可 以 完成 两 种 人 工 语言 的 任务 。 作 者 推断 
这 是 因为 双语 儿童 在 日 常 语言 输入 环境 中 习惯 了 


下 范式 ， 即 并 非 在 学 习 阶 段 进行 检验 ， 而 是 通过 
学 习 后 迫 选 任务 的 结果 推断 切 分 成 功 与 否 。 即 使 


种 语言 不 断 切 换 ， 而 这 与 实验 任务 较为 相似 
因此 他 们 可 以 在 复杂 的 实验 环境 中 切 分 人 工 语言 
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iB (Antovich & Estes, 2017). 
4 研究 展望 


41 汉语 母语 者 语言 经 验 对 概率 词 切 分 的 影响 
首先 ，Saffran 等 人 (1996) 并 未 将 词 切 分 中 的 


影响 ,相反 ,在 完成 语音 刺激 的 任务 时 ， 每 个 被 
试 个 体 的 语言 经 验 都 会 不 同 。 这 种 主观 经 验 会 影 
响 到 被 试 的 学 习 效 果 以 及 人 迫 选 过 程 中 的 选择 ， 反 
映 在 统计 指标 上 ， 声音 材料 试 次 间 的 判断 一 致 性 
会 较 高 ,语音 材料 试 次 间 的 判断 一 致 性 会 较 低 。 


概率 线索 限定 于 印 欧 语系 , 已 有 研究 证 实在 声调 
语言 中 ,概率 信息 仍旧 是 词 切 分 的 重要 线索 机 制 
(Potter et al., 2017; Wang & Saffran, 2014)。 上 文 已 
经 介绍 对 于 粤语 母语 者 来 说 ， 承 载 概率 信息 的 载体 
必须 是 元 音 时 ， 才 能 较 好 地 利用 概率 信息 (Gomez 
et al, 2017)。 考 虑 到 粤语 是 现代 汉语 的 一 种 地 域 
变 体 ， 是 汉语 的 一 种 方言 ， 在 音节 结构 上 颇 为 相 
似 ， 因 此 也 可 以 推断 汉语 母语 者 有 类 似 的 反应 倾 
向 。 除 此 之 外 ,作为 普通 话 母 语 者 典型 的 语言 经 
验 ， 双 音 化 倾向 是 否 也 会 影响 概率 词 切 分 呢 ? 在 
日 常 口语 交流 中 ， 普 通话 母语 者 偏爱 使 用 双 音 节 
词 ， 比 如 ， 当 儿童 被 问 到 今年 几 岁 的 时 候 ， 他 们 
普遍 会 回答 “5 岁 ”， 而 非 “5”， 这 是 因为 “5 岁 ” 两 个 
音节 构成 自然 音 步 , 符合 普通 话 母 语 者 的 对 词 长 
的 偏爱 ( 汉 胜 利 ，1998)。 从 计量 语言 学 的 角度 看 ， 
在 《汉语 大 词典 》 中 ， 双 音节 词 占 比 68.83%, 也 
是 不 同音 节 数 词 中 最 多 的 (李斌 ， 刘 雪 扬 ,2018)。 
虽然 已 有 研究 关注 过 词 长 期 待 对 概率 词 切 分 的 影 
响 (Lew-Williams & Saffran, 2012)， 但 尚未 有 研究 
关注 汉语 母语 者 双 音 节 倾 向 是 否 会 影响 概率 词 切 
分 过 程 ， 以 及 这 种 影响 机 制 是 普遍 存在 该 领域 的 
研究 中 ,还 是 仅仅 在 某 些 特定 情况 下 ， 如 任务 难 
度 较 大 时 才 会 出 现 。 
4.2 个 体 语言 经 验 对 概率 词 切 分 的 影响 

本 文 虽然 介绍 了 不 同 层面 的 语言 经 验 如 何 影 
响 概 率 词 切 分 ， 如 音 段 与 超 音 段 特 征 、 词 语 知 识 
AR, 但 这 些 语 言 经 验 均 是 指 参 加 实验 的 被 试 群体 
所 普遍 具有 的 ， 比 如 普通 话 母 语 者 被 试 均 具 有 声 
调 语言 经 验 等 。 从 被 试 个 体 层 面 上 看 , 我 们 每 个 
人 从 出 生 就 开始 接受 语言 输入 ， 由 于 每 个 被 试 的 
成 长 语言 环境 不 同 ， 所 以 每 个 被 试 对 人 工 语言 的 


实验 结果 也 证 实 , 虽然 两 种 条 件 下 组 间 正 确 率 差 
异 不 显著 ,但 是 声音 材料 条 件 下 的 克 伦 巴赫 a A 
数 显著 高 于 语音 材料 条 件 的 a 系数 。 这 说 明 即 使 
在 组 间 正 确 率 没 有 显著 差异 的 情况 下 ， 每 个 被 试 
对 刺激 材料 的 不 同 偏好 仍旧 可 以 被 检测 出 来 。 

我 们 在 关注 语言 经 验 对 某 一 种 语言 加 工 过 程 
影响 的 时 候 , 往往 很 少 关注 被 试 个 体 的 语言 经 验 
或 偏好 , 但 Siegelman 等 (2018) 等 人 的 研究 给 予 我 
们 很 大 启示 ， 只 要 选择 合适 的 统计 学 指标 是 可 以 
探测 到 个 体 语言 经 验 如 何在 语言 加 工 中 发 挥 着 作 
用 的 。 进 一 步 来 看 ， 这 种 影响 虽然 仅仅 反映 在 每 
个 被 试 对 同一 个 试 次 判断 的 一 致 程度 上 ， 并 不 会 
降低 被 试 的 组 平均 正确 率 , 但 在 未 来 研究 中 ,我 
们 仍 可 以 试图 分 离 两 种 语言 经 验 的 影响 ,并 进 
步 关注 二 者 是 否 对 概率 词 切 分 产生 交互 作用 。 

从 方法 学 上 看 ,关注 个 体 经验 对 实验 自 变量 
带 来 的 影响 伍 然 成 为 心理 语言 学 的 一 个 趋势 。 近 
年 来 ， 线 性 混合 模型 (Linear mixed-effects models, 
LMMs) 被 广泛 应 用 在 心理 语言 研究 中 (Magezi, 
2015; Schad et al., 2020)。 相 比 于 传统 的 方差 分 析 ， 
线性 混合 模型 能 够 将 被 试 和 刺激 材料 的 差异 设置 
为 随机 截 距 (random-intercept) 或 随机 斜率 (random- 
slope)， 从 而 分 离 多 种 变量 对 因 变 量 的 贡献 (Baayen 
et al., 2008),， 并 且 对 全 模型 (在 考虑 随机 截 距 的 同 
时 考虑 所 有 可 能 的 随机 斜率 ) 和 零 模型 (研究 者 的 
理论 假设 模型 , 通常 只 考虑 随机 截 距 ) 进 行 显著 性 
检验 还 可 以 对 理论 模型 进行 修正 。 
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The influence of linguistic experience on statistical word segmentation 
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Abstract: Ample statistical learning (SL) studies have shown that individuals can perform word 
segmentation by tracking the likelihood of syllable co-occurrences in continuous speech. The classic 
“exposure-test” paradigm was widely used in this field, in which participants were first exposed to an 
artificial language and then tested in a forced choice task to assess learning effects. Recently, research has 
shown that participants’ linguistic background, including their phonological and lexical experience, may 
result in experience-dependent SL. After a systematic review, we also discuss the direction for future SL 
studies. Specifically, we suggest that for studies involving Mandarin native speakers, researchers should 
carefully examine the separate and combined effects of various linguistic experience in order to better 
understand statistical word segmentation. 
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